6 research outputs found

    Desain Machine Learning Features pada Model Credit Scoring di PT JULO Teknologi Finansial

    Get PDF
    Laporan kerja magang ini berisi mengenai implementasi kegiatan kerja magang pada PT JULO Teknologi Finansial. Tugas utama yang diberikan adalah mendesain machine learning features pada model credit scoring di PT JULO Teknologi Finansial. Machine learning features ini dibuat dengan tujuan agar dapat membantu performa model credit scoring dalam mengklasifikasikan aplikasi pinjaman dalam tingkatan tertentu. Data pendukung dari pembuatan features merupakan informasi detail dari aplikasi android pada Google Playstore yang berkategorikan finance. Dari data pendukung dan juga beberapa data pengguna yang ada dalam database perusahaan, dapat terbentuk dua macam features berupa jumlah dari aplikasi android berkategorikan finance yang diunduh tiap aplikasi pinjaman dan juga feature turunan yang didapatkan dari feature jumlah aplikasi android dan durasi unduh antaraplikasi pada tiap aplikasi pinjaman. Features dapat memberi dampak yang cukup signifikan dalam performa model yang diukur dalam metrik penilaian performa AUC dibuktikan dengan masuknya features ke dalam 50 (lima puluh) features teratas dari kurang lebih 800 (delapan ratus) features diurutkan dari yang paling berpengaruh

    Rancang Bangun Language Model Bahasa Indonesia Menggunakan Metode BERT

    Get PDF
    Natural Language Processing (NLP) merupakan salah satu subbidang pada Artifical Intelligence yang berkembang pesat. NLP banyak dikembangkan melalui pendekatan machine learning hingga deep learning. BERT adalah pengembangan metode state-ofthe-art pada arsitektur deep learning dalam ranah NLP. BERT yang dikenalkan oleh Google, merupakan model representasi bahasa unsupervised pertama yang menggunakan konsep bidirectional, dan di-pretrain hanya dengan teks korpus tanpa label. Google juga telah menyediakan model yang telah di-pretrain dengan menggunakan Cloud TPUs dengan korpus berukuran sangat besar. Terdapat beberapa model pretrained yang disediakan oleh Google, dan salah satu model tersebut adalah Multilingual BERT, sebuah model BERT pretrained yang dilatih dengan dataset yang terdiri dari 104 bahasa pada satu model BERT. Namun, terdapat banyak kasus di mana model BERT Multilingual tidak dapat memberikan performa yang memuaskan ketika model di-finetune pada downstream task yang hanya melibatkan satu bahasa yang spesifik. Dikarenakan belum terdapat model BERT pretrained dalam bahasa Indonesia yang opensource, penelitian ini dilakukan untuk membuat language model berbahasa Indonesia yang dapat dikembangkan ke downstream task yang menggunakan Bahasa Indonesia. Pada penelitian ini Bahasa BERT mampu melampaui performa Multilingual BERT dalam tugas klasifikasi teks. Bahasa BERT juga memerlukan waktu dalam proses finetuning yang lebih singkat dibandingkan dengan Multilingual BERT, membuatnya lebih cepat dan cost-effective

    NusaCrowd: Open Source Initiative for Indonesian NLP Resources

    Full text link
    We present NusaCrowd, a collaborative initiative to collect and unify existing resources for Indonesian languages, including opening access to previously non-public resources. Through this initiative, we have brought together 137 datasets and 118 standardized data loaders. The quality of the datasets has been assessed manually and automatically, and their value is demonstrated through multiple experiments. NusaCrowd's data collection enables the creation of the first zero-shot benchmarks for natural language understanding and generation in Indonesian and the local languages of Indonesia. Furthermore, NusaCrowd brings the creation of the first multilingual automatic speech recognition benchmark in Indonesian and the local languages of Indonesia. Our work strives to advance natural language processing (NLP) research for languages that are under-represented despite being widely spoken

    Desain Machine Learning Features pada Model Credit Scoring di PT JULO Teknologi Finansial

    Get PDF
    Laporan kerja magang ini berisi mengenai implementasi kegiatan kerja magang pada PT JULO Teknologi Finansial. Tugas utama yang diberikan adalah mendesain machine learning features pada model credit scoring di PT JULO Teknologi Finansial. Machine learning features ini dibuat dengan tujuan agar dapat membantu performa model credit scoring dalam mengklasifikasikan aplikasi pinjaman dalam tingkatan tertentu. Data pendukung dari pembuatan features merupakan informasi detail dari aplikasi android pada Google Playstore yang berkategorikan finance. Dari data pendukung dan juga beberapa data pengguna yang ada dalam database perusahaan, dapat terbentuk dua macam features berupa jumlah dari aplikasi android berkategorikan finance yang diunduh tiap aplikasi pinjaman dan juga feature turunan yang didapatkan dari feature jumlah aplikasi android dan durasi unduh antaraplikasi pada tiap aplikasi pinjaman. Features dapat memberi dampak yang cukup signifikan dalam performa model yang diukur dalam metrik penilaian performa AUC dibuktikan dengan masuknya features ke dalam 50 (lima puluh) features teratas dari kurang lebih 800 (delapan ratus) features diurutkan dari yang paling berpengaruh

    Rancang Bangun Language Model Bahasa Indonesia Menggunakan Metode BERT

    Get PDF
    Natural Language Processing (NLP) merupakan salah satu subbidang pada Artifical Intelligence yang berkembang pesat. NLP banyak dikembangkan melalui pendekatan machine learning hingga deep learning. BERT adalah pengembangan metode state-ofthe-art pada arsitektur deep learning dalam ranah NLP. BERT yang dikenalkan oleh Google, merupakan model representasi bahasa unsupervised pertama yang menggunakan konsep bidirectional, dan di-pretrain hanya dengan teks korpus tanpa label. Google juga telah menyediakan model yang telah di-pretrain dengan menggunakan Cloud TPUs dengan korpus berukuran sangat besar. Terdapat beberapa model pretrained yang disediakan oleh Google, dan salah satu model tersebut adalah Multilingual BERT, sebuah model BERT pretrained yang dilatih dengan dataset yang terdiri dari 104 bahasa pada satu model BERT. Namun, terdapat banyak kasus di mana model BERT Multilingual tidak dapat memberikan performa yang memuaskan ketika model di-finetune pada downstream task yang hanya melibatkan satu bahasa yang spesifik. Dikarenakan belum terdapat model BERT pretrained dalam bahasa Indonesia yang opensource, penelitian ini dilakukan untuk membuat language model berbahasa Indonesia yang dapat dikembangkan ke downstream task yang menggunakan Bahasa Indonesia. Pada penelitian ini Bahasa BERT mampu melampaui performa Multilingual BERT dalam tugas klasifikasi teks. Bahasa BERT juga memerlukan waktu dalam proses finetuning yang lebih singkat dibandingkan dengan Multilingual BERT, membuatnya lebih cepat dan cost-effective
    corecore